aws cloud service 活用資料集
「データサイエンス必読」のもの
★★★★★ 「データ活用するなら最低限知っておくサービス!」
datalakeの統合管理service。ここで「使いたいテーブル」を見つけてこよう
BI。datalakeの中身をGraphで表示するためのツール
datalakeの中身をSQLで自由自在に取得してくるためのツール
datalakeの中身を詳細に高レベルに分析するためのツール。Pythonでコーディングする
Amazon sagemakerにてdatalakeのdataや AWS GlueなどのAWS serviceを使うために必要なライブラリ
★★★★ 「欲しいデータを手に入れたいならば知っておくサービス!」
GCP上でのETLいろいろツール「SQLで書けない複雑な処理」「ペタバイトレベルの大規模データ処理」で利用する。Glueでcrawlingすることで「Athenaで読み込みができる状態(カタログ生成状態)」になる。 実はLake Formationの裏ではGlueが動いている 最強のストレージサービス。datalakeで扱うdataの実態は全てS3に存在している。S3のdataをGlueでETL加工し、Athenaで抽出している。
AWSにないDataBaseの中身をそのまま引っ越し(data migration)するためのservice。
AWSのRDBservice。AWS DMSで引っ越ししてきたdataがdatalake(s3)に保存されるまでの一時避難場所としても利用される キューのservice。AthenaやLambdaといった「フルマネージドサービス」に一気にrequestが集中しないように「requestが飛ぶスピード」を調整するために使う。datalakeではSQLで処理できる場合「Athena + SQS」の組み合わせでETL処理すると安くつく
ストリーミングのservice。log dataのような常に出てくるdataを流すために使う。「アプリの利用ログ」「サーバーのモニタリングログ」などをdatalakeに持ってくるときに利用する
★★★ 「datalakeやAWS環境を自在に設定するためのサービス!」
AWS内のあらゆる権限を管理するサービス。AWSでserviceを使うならば自分の代わりとなる「IAM User」に「IAM Policy」と呼ばれる権限セットを付与しないと何もできない。AWSのservice自体にも「IAM role」を付与しないと何もできない。IAMが理解できていないと「何もできない」「セキュリティガバガバ」になるのがAWS。
AWSのservice設定(≒インフラ設定)をコード管理し自動化するサービス。「aws/netprotections-datascience」のインフラは全てこれで構築される。「AWS serviceを一つだけ使ってやりたいことを実現する」ことはまずない。いろんなことをやっていくと、AWS内で「これはどれと組み合わせて利用しているんだ?」となる。このカオスな状況を解決するのがCloudFormation AWS serviceのあらゆるlogが集約するservice。「エラーがおきてとまったぞ?」と思ったらCloudWatchを見にいくと良い。何かAWSでやってみるときは「CloudWatchにログが出力される」ことを最初に目指すと良い。
CloudWatchのUser版。AWSを使っている私たちの行動ログが全て集約される。「AWSが変な挙動したぞ?」となったら、「どんな行動が原因か?」を調べると思う。そのときに使う
AWS上でCI/CDを実現するためのservice。これらを利用することで「AWS CodeCommitのソースコードを更新したら、全自動で本番へのsystem deployも完了する」ようにできる AWSでかかった費用をみるサービス。「気付いたら**万円かかっていた」と鳴らないように適宜チェックしよう
★★ 「実は使える。実は使われているサービス」
Sagemakerの「予測」に特化したver。
名寄せで利用されている
統合開発環境(IDE)。AWS serviceを自由に使える・共同編集ができるので「AWSを基盤としたチーム開発」に便利
DWH service。datalake内部のdataをDomoに連携するために利用されている
★